热应力和变形的快速分析在热控制措施和卫星结构设计的优化中起着关键作用。为了实现卫星主板的实时热应力和热变形分析,本文提出了一种新型的多任务注意UNET(MTA-UNET)神经网络,将多任务学习(MTL)和U-NET的优势结合在一起注意机制。此外,在训练过程中使用了物理知识的策略,其中部分微分方程(PDE)被整合到损失函数中作为残留项。最后,将基于不确定性的损失平衡方法应用于重量的多个培训任务的不同损失功能。实验结果表明,与单任务学习(STL)模型相比,提出的MTA-UNET有效提高了多个物理任务的预测准确性。此外,物理信息的方法在每个任务的预测中的错误较小,尤其是在小型数据集上。代码可以在:\ url {https://github.com/komorebitso/mta-unet}下载。
translated by 谷歌翻译
语言,视觉和多模式预审查的大量融合正在出现。在这项工作中,我们介绍了通用多模式基础模型BEIT-3,该模型BEIT-3,该模型在视觉和视觉任务上都实现了最新的转移性能。具体来说,我们从三个方面提出了大融合:骨干架构,预训练任务和模型扩展。我们介绍了多道路变压器进行通用建模,其中模块化体系结构可以实现深融合和模态特定的编码。基于共享的骨干,我们以统一的方式对图像(Imglish),文本(英语)和图像文本对(“平行句子”)进行蒙面的“语言”建模。实验结果表明,BEIT-3在对象检测(COCO),语义分割(ADE20K),图像分类(Imagenet),视觉推理(NLVR2),视觉询问答案(VQAV2),图像字幕上获得最先进的性能(可可)和跨模式检索(Flickr30k,可可)。
translated by 谷歌翻译
蒙版图像建模(MIM)通过恢复损坏的图像补丁,在自我监督的表示学习中表现出了令人印象深刻的结果。但是,大多数方法仍在低级图像像素上运行,这阻碍了对表示模型的高级语义的开发。在这项研究中,我们建议将富含语义的视觉令牌用作掩盖预测的重建目标,从而提供了一种系统的方式来促进MIM从像素级到语义级别。具体而言,我们引入了矢量定量的知识蒸馏以训练令牌仪,该蒸馏器将连续的语义空间离散为紧凑的代码。然后,我们通过预测掩盖图像贴片的原始视觉令牌来预处理变压器。此外,我们鼓励该模型将补丁信息明确汇总到全局图像表示中,该图像表示该设施线性探测。图像分类和语义分割的实验表明,我们的方法优于所有方法比较MIM方法。在ImagEnet-1K(224尺寸)上,基本大小的BEIT V2可实现85.5%的top-1精度,用于微调和80.1%的线性探测的TOP-1精度。大尺寸的BEIT V2获得了ImagEnet-1K(224尺寸)微调的最高1个TOP-1精度,用于语义分割的ADE20K上获得了56.7%MIOU。代码和预估计的模型可在https://aka.ms/beit上找到。
translated by 谷歌翻译
将深度学习与象征性逻辑推理相结合旨在利用这两个领域的成功,并引起越来越多的关注。受到深度循环的启发,这是一种端到端的模型,该模型训练了逻辑程序的推理,我们引入了Ima-Glove-GA,这是一种以自然语言表达的多步推理的迭代神经推理网络。在我们的模型中,推理是使用基于带门注意机制的RNN的迭代记忆神经网络进行的。我们在三个数据集上评估了iMa-glove-ga:副本,Conceptrules V1和Conceptrules V2。实验结果表明,与DeepLo​​gic和其他RNN基线模型相比,深沟和栅极注意可以达到更高的测试精度。当规则被淘汰时,我们的模型比罗伯塔·洛尔格(Roberta-Large)实现了更好的分布概括。此外,为了解决当前多步推理数据集中推理深度分布不平衡分布的问题,我们开发了Pararule-Plus,这是一个大型数据集,其中包含更多需要更深入推理步骤的示例。实验结果表明,添加Pararule-Plus可以在需要更深层次深度的示例中提高模型的性能。源代码和数据可在https://github.com/strong-ai-lab/multi-step-deductive-reasoning-over-natural语言中获得。
translated by 谷歌翻译
语言模型既展示了定量的改进,又展示了新的定性功能,随着规模的增加。尽管它们具有潜在的变革性影响,但这些新能力的特征却很差。为了为未来的研究提供信息,为破坏性的新模型能力做准备,并改善社会有害的效果,至关重要的是,我们必须了解目前和近乎未来的能力和语言模型的局限性。为了应对这一挑战,我们介绍了超越模仿游戏基准(Big Bench)。 Big Bench目前由204个任务组成,由132家机构的442位作者贡献。任务主题是多样的,从语言学,儿童发展,数学,常识性推理,生物学,物理学,社会偏见,软件开发等等。 Big-Bench专注于被认为超出当前语言模型的功能的任务。我们评估了OpenAI的GPT型号,Google内部密集变压器体系结构和大型基础上的开关稀疏变压器的行为,跨越了数百万到数十亿个参数。此外,一个人类专家评估者团队执行了所有任务,以提供强大的基准。研究结果包括:模型性能和校准都随规模改善,但绝对的术语(以及与评估者的性能相比);在模型类中的性能非常相似,尽管带有稀疏性。逐渐和预测的任务通常涉及大量知识或记忆成分,而在临界规模上表现出“突破性”行为的任务通常涉及多个步骤或组成部分或脆性指标;社交偏见通常会随着含糊不清的环境而随着规模而增加,但这可以通过提示来改善。
translated by 谷歌翻译
本文解决了从多视频视频中重建动画人类模型的挑战。最近的一些作品提出,将一个非刚性变形的场景分解为规范的神经辐射场和一组变形场,它们映射观察空间指向规范空间,从而使它们能够从图像中学习动态场景。但是,它们代表变形场作为转换矢量场或SE(3)字段,这使得优化高度不受限制。此外,这些表示无法通过输入动议明确控制。取而代之的是,我们基于线性混合剥皮算法引入了一个姿势驱动的变形场,该算法结合了混合重量场和3D人类骨架,以产生观察到的对应对应。由于3D人类骨骼更容易观察到,因此它们可以正规化变形场的学习。此外,可以通过输入骨骼运动来控制姿势驱动的变形场,以生成新的变形字段来动画规范人类模型。实验表明,我们的方法显着优于最近的人类建模方法。该代码可在https://zju3dv.github.io/animatable_nerf/上获得。
translated by 谷歌翻译
本文旨在减少透明辐射场的渲染时间。一些最近的作品用图像编码器配备了神经辐射字段,能够跨越场景概括,这避免了每场景优化。但是,它们的渲染过程通常很慢。主要因素是,在推断辐射场时,它们在空间中的大量点。在本文中,我们介绍了一个混合场景表示,它结合了最佳的隐式辐射场和显式深度映射,以便有效渲染。具体地,我们首先构建级联成本量,以有效地预测场景的粗糙几何形状。粗糙几何允许我们在场景表面附近的几个点来样,并显着提高渲染速度。该过程是完全可疑的,使我们能够仅从RGB图像共同学习深度预测和辐射现场网络。实验表明,该方法在DTU,真正的前瞻性和NERF合成数据集上展示了最先进的性能,而不是比以前的最可推广的辐射现场方法快至少50倍。我们还展示了我们的方法实时综合动态人类执行者的自由观点视频。代码将在https://zju3dv.github.io/enerf/处提供。
translated by 谷歌翻译
准确的车辆轨迹预测对于可靠的自动驾驶至关重要。为了保持一致的性能作为围绕不同城市的车辆,适应不断变化的交通环境并实现终身轨迹预测模型至关重要。为了实现它,灾难性的遗忘是要解决的主要问题。本文首先提出了一种基于条件Kullback-Leibler发散的分歧测量方法,以评估不同驾驶环境中的时空依赖差异。然后基于生成重播,开发了一种新颖的终身车辆轨迹预测框架。该框架包括条件生成模型和车辆轨迹预测模型。条件生成模型是一种在车辆的位置配置上的生成对抗性网络。在学习和合并不同城市车辆的轨迹分布之后,代表模型将轨迹重放了以前的采样作为输入,减轻了灾难性的遗忘。车辆轨迹预测模型由重放的轨迹训练,并在访问的城市实现一致的预测性能。终身实验设置是在四个开放数据集中建立,包括五个任务。为不同的任务计算了时尚依赖性发散。即使这些分歧,所提出的框架也表现出终身学习能力,并在所有任务中实现一致的性能。
translated by 谷歌翻译
This paper addresses the challenge of 6DoF pose estimation from a single RGB image under severe occlusion or truncation. Many recent works have shown that a two-stage approach, which first detects keypoints and then solves a Perspective-n-Point (PnP) problem for pose estimation, achieves remarkable performance. However, most of these methods only localize a set of sparse keypoints by regressing their image coordinates or heatmaps, which are sensitive to occlusion and truncation. Instead, we introduce a Pixel-wise Voting Network (PVNet) to regress pixel-wise unit vectors pointing to the keypoints and use these vectors to vote for keypoint locations using RANSAC. This creates a flexible representation for localizing occluded or truncated keypoints. Another important feature of this representation is that it provides uncertainties of keypoint locations that can be further leveraged by the PnP solver. Experiments show that the proposed approach outperforms the state of the art on the LINEMOD, Occlusion LINEMOD and YCB-Video datasets by a large margin, while being efficient for real-time pose estimation. We further create a Truncation LINEMOD dataset to validate the robustness of our approach against truncation. The code will be avaliable at https://zju-3dv.github.io/pvnet/.
translated by 谷歌翻译